TAD的鉴定方法(一) |
您所在的位置:网站首页 › amol tad › TAD的鉴定方法(一) |
TAD的鉴定方法(一)——cool格式的转换 上次我们使用HiC-Pro将HiC数据比对到了参考基因组上,并且得到了bin水平的HiC数据(交互文件),我们这里介绍一下TAD的鉴定方法(使用HiCPeaks和TADLib中的两个程序),大致分为以下两步(我们会分) cool格式的转换 TAD的鉴定注:TAD的相关介绍请看本博客之前的文章:三维基因组之TAD的形成机制以及其特征 1.cool格式的转化——HiCPeaksHiC-Pro所得到的bin水平的HiC数据是TXT/NPZ bin水平的HiC数据,不能直接进行TAD的鉴定,HiCPeaks中的toCooler是将TXT/NPZ bin水平的HiC数据转化成cool格式,以便后续的分析。 1.1 HiCPeaks的安装HiCPeaks的安装需要使用conda进行,操作也十分的简单 其需要一些python要求 Python 2.7/3.5+、Multiprocess、Numpy、Scipy、Matplotlib、Pandas、Statsmodels、Scikit-Learn、H5py、Cooler 还需要ucsc-fetchchromsizes具体安装操作如下 首先设置通道,使上面列出的所有包都可访问(注意,顺序很重要,以确保正确的优先级) 123conda config --add channels defaultsconda config --add channels biocondaconda config --add channels conda-forge然后就进行依赖的安装 1conda install numpy scipy matplotlib pandas statsmodels scikit-learn h5py multiprocess cooler ucsc-fetchchromsizes最后进行hicpeaks的安装 1python setup.py install 1.2 HiCPeakst之oCooler的使用1.2.1 原始数据的处理首先我们依据bin的编号文件Ga_1_40000_abs.bed将交互文件Ga_1_40000.matrix进行处理,提取出来研究中关注的两条染色体的交互数据,这里就以染色体内的交互进行说明(以前五号染色体为例) Ga_1_40000_abs.bed文件内容如下,四列分别是:染色体编号、bin起始、bin终止、bin编号 123456Chr01 0 40000 1Chr01 40000 80000 2Chr01 80000 120000 3Chr01 120000 160000 4Chr01 160000 200000 5...这里我们需要批量提取所有的染色体起始和终止bin的编号,可以用bash脚本实现,脚本如下 1234for i in 1 2 3 4 5 #提取每个染色体的起始和终止bin编号 do grep "Chr0"$i"" Ga_1_40000_abs.bed|awk 'NR==1{printf "'$i'" "\t" $4 "\t"}END{print $4}'>>Ga.beddone然后我们就根据染色体的起始和终止编号进行染色体内交互的提取 Ga_1_40000.matrix文件如下 1234561 1 751 2 1121 3 931 4 331 5 18...交互提取的bash脚本如下 12345678a=($(cut -f2 Ga.bed)) #bed文件是每个染色体的起始和终止bin编号b=($(cut -f3 Ga.bed))mkdir 40K #交互文件要放进这个文件夹里,文件夹得命名为bin的大小for i in $(seq 1 5) #生成每个染色体内的交互文件命名为 染色体号_染色体号.txt(染色体号为自然数字1、2、3...),并且让bin编号从0开始(这个很重要)doawk -v x=${a[i-1]} -v y=${b[i-1]} '{if(x |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |